Definição 10.1.1: A Ligação Estatística
Duas variáveis $X$ e $Y$ são consideradas relacionadas se houver qualquer mudança na distribuição condicional de $Y$, dado $X = x$, à medida que $x$ muda. Por outro lado, um estado de "sem relação" é matematicamente equivalente à independência entre $X$ e $Y$.
As variáveis $X$ e $Y$ são independentes se, e somente se, $f(y|x) = f(y)$ para todos os valores de $x$. Isso implica que a função de frequência relativa conjunta pode ser fatorada como:
$$f(x, y) = f(x)f(y)$$
Portanto, testar uma relação é fundamentalmente um teste de Independência.
Mecanismos de Mudança
Um relacionamento é identificado por qualquer deslocamento na função de densidade condicional (como mostrado na Figura 10.1.1). Isso inclui:
- Deslocamento da Média: O valor esperado $E(Y|X)$ muda (o foco mais comum).
- Deslocamento da Variância: A dispersão ou incerteza de $Y$ depende de $X$ (heterocedasticidade).
- Mudança na Forma: A distribuição geral se transforma (por exemplo, de simétrica para assimétrica).
Estabelecendo Causalidade por meio do Design
Uma relação estatística não implica causalidade. Para afirmar que $X causa $Y$, devemos levar em conta as variáveis de confusão por meio do Design dos Experimentos:
- Tratamentos de Controle: Fornece uma base de comparação.
- Efeito Placebo: Mitigação da melhoria percebida por meio de tratamentos inativos.
- Cegueira: Usando experimentos cegos (receptores inconscientes) e experimentos duplamente cegos (receptores e pesquisadores inconscientes) para eliminar viés.
- Bloqueio: Como visto em Exemplo 10.1.7, usamos variáveis de bloqueio ($W$, como fertilidade do solo) para garantir que a relação entre o tipo de trigo ($X$) e o rendimento ($Y$) não seja confundida por condições pré-existentes.